340 research outputs found

    "It Puts us in our Students' Shoes": Listening to Voices from Teacher Candidates on Their Test-Taking Experience

    Get PDF
    This study explores teacher candidates' experiential learning through their test-taking experiences while attending a Bachelor of Education (B. Ed.) program. Eighty-four written reflections by teacher candidates taking a mid-term course examination on classroom assessment practices were analyzed. Major themes emerging from these reflections on the test-taking experience are related to validity concepts of construct representation, construct-irrelevant variance, relevance, and fairness. The study reveals that the test-taking experience could be valuable to teacher candidates in their learning of classroom assessment practices and in their understanding of the issues in test taking that may influence test performance. This, in turn, could potentially provide teacher candidates with a direct framework for their future classroom assessment practices, by which they may support their own future students

    Internationally Educated Nurses and the Canadian English Language Benchmark Assessment for Nurses: A Qualitative Test Validation Study of Test-Taker Accounts

    Get PDF
    This qualitative validation study examines sixteen Internationally Educated Nurses’ (IENs’) accounts of the Canadian English Language Benchmark Assessment for Nurses (CELBAN) at two testing centres (Toronto and Hamilton). This study adopts both focus groups and one-on-one interviews to investigate the inferences drawn from the test, and its consequences. Focus groups and interviews were conducted using an adapted interview guide utilized in the TOEFL iBT investigation of test-taker accounts of construct representation and construct irrelevant variance (DeLuca et al., 2013). While construct representation describes the degree of authenticity in the presentation of Canadian English language nursing tasks, construct irrelevant variance refers to potential factors impacting the test-taking experience which might contribute to a score variance that was not reflective of test-taker knowledge of the testing constructs (Messick, 1989, 1991, 1996). In this study, test-taker accounts of construct representation and construct irrelevant variance constituted the data which were coded and analyzed abductively via the sensitizing concepts derived from DeLuca et al., and Cheng and DeLuca (2011) on examining test-takers’ experience and their contribution to validity. Seven themes emerged, answering four research questions: How do IENs characterize their test experience? How do IENs describe the assessment constructs? What, if any, sources of Construct Irrelevant Variance (CIV) do IENs describe? Do IENs feel the language tasks are authentic? Overall, participants reported positive experiences with the CELBAN, while identifying some possible sources of CIV. Given the CELBAN’s widespread use for high-stakes decisions (a component of nursing certification and licensure), further research of IEN-test-taker responses to construct representation and construct irrelevant variance will remain critical to our understanding of the role of language competency testing for IENs. Cette étude qualitative de validation examine les témoignages de seize infirmières et infirmiers formés à l’étranger (IFE), à propos du test Canadian English Language Benchmark Assessment for Nurses (CELBAN), dans deux centres d’examen (Toronto et Hamilton). Cette étude adopte à la fois des groupes de discussion et des entretiens en tête à tête afin d’enquêter sur les inférences tirées du test et ses conséquences. Les groupes de discussion et les entretiens ont été menés avec un guide d’entretien adapté, celui-ci utilisé dans l’enquête TOEFL iBT consistant de témoignages des candidats au CELBAN sur la représentation des construis et la variance non pertinente des construis (DeLuca et coll., 2013). Tandis que la représentation des construis décrit le degré d’authenticité qui se trouve dans la présentation des tâches des infirmières et infirmiers en anglais canadien, la variance non pertinente des construis fait référence aux facteurs potentiels qui pourraient influencer l’expérience de passation du test, et qui pourraient contribuer à une variance de résultats ne reflétant pas les connaissances des construis d’évaluation que possède le candidat (Messick, 1989, 1991, 1996). Dans cette étude, les témoignages des candidats sur la représentation des construis et la variance non pertinente des construis constituent les données codées et analysées de manière abrégée à travers les concepts de sensibilisé dérivés de Cheng et coll. et de Cheng et DeLuca (2011) sur l’expérience des candidats et leur contribution à la validité. Sept thèmes ont émergé, qui répondaient à quatre questions de recherche : comment les IFE représentent-ils l’expérience de passation du test ? Comment les IFE décrivent-ils les construis d’évaluation ? Quelles, s’il y en a, sources de la variance non pertinente des construis (VNC) les candidats décrivent-ils ? Les IFE pensent-ils que les tâches de langue sont authentiques ? Dans l’ensemble, les participants ont rapporté des expériences positives avec le CELBAN, en identifiant aussi quelques sources possibles de VNC. Étant donné l’usage répandu du CELBAN pour des décisions à enjeux élevés (une composante de la certification et du permis d’exercer des infirmières et infirmiers), d’autres recherches sur les réponses des candidats IFE à la représentation des construis et de la variance non pertinente des construis resteront cruciales à notre compréhension du rôle de l’évaluation des niveaux de compétence linguistique chez les IFE

    Teachers' Work in the Global Culture of Performance

    Get PDF
    Increasingly teachers find themselves working in the rarefied atmosphere of high-stakes testing. In Alberta, as in the rest of the industrialized world, the impulse to increase the monitoring and surveillance of student performance grows unabated. What are the impacts on teachers' work amid the growth of this culture of performance? Although internationally there are many debates around the issue of high-stakes testing, relatively little has been written about the lived experiences of teachers in this area. Drawing on a general review of the literature on teachers' classroom responses to high-stakes testing, this article argues that it is time to develop a framework for understanding the particular localized ways that teachers respond to the global culture of performance.Le contexte dans lequel auvrent les enseignants devient de plus de plus un monde à part caractérisé par des évaluations à enjeu considérable. En Alberta, comme partout ailleurs dans le monde industrialisé, le mouvement enfaveur d'augmenter le suivi el la surveillance des étudiants se poursuit sans relâche. Quel est I'impact de la montée de ce culte voué à la performance, sur le travail des enseignants? Alors que Von discute beaucoup, à I'échelle Internationale, de cette question d'évaluations à enjeu considérable, on a fait coaler peu d'encre sur les expériences des enseignants dans ce domaine. En prenant comme base les recherches publiées sur les réactions des enseignants aux évaluations à enjeu considérable, les auteurs proposent quit est temps de développer un cadre qui permeltrait de comprendre les diverses façons dont les enseignants réagissent à la cultureglobale de la performance

    Is GPT-4 a Good Data Analyst?

    Full text link
    As large language models (LLMs) have demonstrated their powerful capabilities in plenty of domains and tasks, including context understanding, code generation, language generation, data storytelling, etc., many data analysts may raise concerns if their jobs will be replaced by AI. This controversial topic has drawn a lot of attention in public. However, we are still at a stage of divergent opinions without any definitive conclusion. Motivated by this, we raise the research question of "is GPT-4 a good data analyst?" in this work and aim to answer it by conducting head-to-head comparative studies. In detail, we regard GPT-4 as a data analyst to perform end-to-end data analysis with databases from a wide range of domains. We propose a framework to tackle the problems by carefully designing the prompts for GPT-4 to conduct experiments. We also design several task-specific evaluation metrics to systematically compare the performance between several professional human data analysts and GPT-4. Experimental results show that GPT-4 can achieve comparable performance to humans. We also provide in-depth discussions about our results to shed light on further studies before we reach the conclusion that GPT-4 can replace data analysts.Comment: 11 pages, 2 figure

    Phonological Awareness and Listening Comprehension Among Chinese English-Immersion Students

    Get PDF
    This study investigates the relationship between English listening comprehension and English and Chinese phonological awareness (PA), and the cross-linguistic transfer of PA in 48 Grade 2 and 47 Grade 4 Chinese English-immersion students. The results of the study indicate a correlation between English PA and English listening comprehension. English listening comprehension had a significant effect on English PA in both grades; this effect is evident after considering Chinese PA, but only in Grade 4. A similar pattern is found for the effect of English PA on English listening comprehension. Only weak evidence exists pertaining to a connection between cross-linguistic transfer from Chinese PA (L1) to English listening comprehension (L2)

    ESL/EFL Instructors’ Beliefs about Assessment and Evaluation

    Get PDF
    The beliefs of 95 ESL/EFL instructors in Canada, 44 in Hong Kong, and 124 in Beijing about assessment and evaluation were examined with 32 questionnaire items. While the results revealed more similarities than the differences, among the instructors in the three contexts, the beliefs expressed by the instructors in the three contexts were somewhat mixed and, at times, contradictory. While the beliefs that assessment and evaluation were important for instruction and help improve student learning and the actual purposes of and uses of assessment and evaluation held by the instructors were positively related. The instructors’ beliefs about how they conducted their assessments and evaluations, the time required for assessments and evaluations, and their understanding of and preparation for assessment and evaluation were only somewhat related to their actual assessment practices. Nous avons examiné les convictions sur les jugements et les évaluations de 95 instructeurs ELS/ELE au Canada, 44 à Hong Kong, et 124 à Pékin avec un questionnaire de 32 points. Alors que les résultats font apparaître plus de similarités que de différences parmi les instructeurs dans les trois milieux, la confiance exprimée par les instructeurs est plus ou moins mélangée et parfois contradictoire dans ces trois milieux. Pour ces instructeurs, il y a une corelation positive entre leur confiance que les évaluations et les jugements sont importants pour l\u27enseignement et aident les élèves à améliorer leur apprentissage et leur confiance sur le but réel et l\u27utilisation des jugements et des évaluations. Mais la conviction sur la façon avec laquelle ils conduisent les jugements et les évaluations, le temps nécessaire pour les conduire et leur compréhension comme leur préparation des jugements et évaluations n\u27ont qu\u27une relation assez vague avec leurs pratiques des évaluations

    Grading Policies and Practices in Canada: A Landscape Study

    Get PDF
    Given the longstanding role of grades in education, and their increased use for high-stakes decisions including student mobility, admission, selection, and accountability, this paper paper presents a systematic review of grading policies across all 10 Canadian provinces and 3 territories. In total, 23 policies were inductively analyzed for their articulation of (a) the purposes of grades, (b) the methods used for generating grades, and (c) the relationship between grading and formative assessment. Our analysis revealed significant areas of consistency across Canada while also highlighting important areas of variation. Implications of these findings on the value and use of grades within and across educational systems in Canada are discussed

    Exploring the Potential of Large Language Models in Computational Argumentation

    Full text link
    Computational argumentation has become an essential tool in various fields, including artificial intelligence, law, and public policy. It is an emerging research field in natural language processing (NLP) that attracts increasing attention. Research on computational argumentation mainly involves two types of tasks: argument mining and argument generation. As large language models (LLMs) have demonstrated strong abilities in understanding context and generating natural language, it is worthwhile to evaluate the performance of LLMs on various computational argumentation tasks. This work aims to embark on an assessment of LLMs, such as ChatGPT, Flan models and LLaMA2 models, under zero-shot and few-shot settings within the realm of computational argumentation. We organize existing tasks into 6 main classes and standardise the format of 14 open-sourced datasets. In addition, we present a new benchmark dataset on counter speech generation, that aims to holistically evaluate the end-to-end performance of LLMs on argument mining and argument generation. Extensive experiments show that LLMs exhibit commendable performance across most of these datasets, demonstrating their capabilities in the field of argumentation. We also highlight the limitations in evaluating computational argumentation and provide suggestions for future research directions in this field

    Bis(1-adamantylammonium) hexafluoridogermanate

    Get PDF
    The title compound, (C10H18N)2[GeF6], was obtained hydro­thermally from an aqueous solution of GeO2, H3BO3, NiCl2, adamantylammonium chloride, butanol and hydro­fluoric acid. The structure consists of discrete bis(1-adamantylammonium) cations lying on crystallographic mirror planes and hexa­fluoridogermanate anions disordered about sites of 2/m point symmetry. In the latter, the Ge atom lies on the site of 2/m symmetry, one F atom lies on the mirror plane and two further F atoms are included in general positions with 50% site occupancy. The cations and anions lie in layers with N—H⋯F hydrogen bonds formed between them

    Examining Rater Performance on the CELBAN Speaking: A Many-Facets Rasch Measurement Analysis

    Get PDF
    Internationally educated nurses’ (IENs) English language proficiency is critical to professional licensure as communication is a key competency for safe practice. The Canadian English Language Benchmark Assessment for Nurses (CELBAN) is Canada’s only Canadian Language Benchmarks (CLB) referenced examination used in the context of healthcare regulation. This high-stakes assessment claims proof of proficiency for IENs seeking licensure in Canada and a measure of public safety for nursing regulators. Understanding the quality of rater performance when examination results are used for high-stakes decisions is crucial to maintaining speaking test quality as it involves judgement, and thus requires strong reliability evidence (Koizumi et al., 2017). This study examined rater performance on the CELBAN Speaking component using a Many-Facets Rasch Measurement (MFRM). Specifically, this study identified CELBAN rater reliability in terms of consistency and severity, rating bias, and use of rating scale. The study was based on a sample of 115 raters across eight test sites in Canada and results on 2698 examinations across four parallel versions. Findings demonstrated relatively high inter-rater reliability and intra-rater reliability, and that CLB-based speaking descriptors (CLB 6-9) provided sufficient information for raters to discriminate examinees’ oral proficiency. There was no influence of test site or test version, offering validity evidence to support test use for high-stakes purposes. Grammar, among the eight speaking criteria, was identified as the most difficult criterion on the scale, and the one demonstrating most rater bias. This study highlights the value of MFRM analysis in rater performance research with implications for rater training. This study is one of the first research studies using MFRM with a CLB-referenced high-stakes assessment within the Canadian context.Les compétences linguistiques dans la langue anglaise chez des infirmiers et infirmières ayant reçu leur éducation à l’étranger s’avèrent critiques à l’acquisition du permis professionnel d’exercer leur profession, car les compétences communicatives sont clé à la pratique sécuritaire. L’examen langagier des compétences de langue anglaise The Canadian English Language Benchmark Assessment for Nurses (CELBAN) demeure le seul examen langagier référentiel canadien auquel on fait référence dans le contexte canadien des règlements de contrôle du système de santé. Cet examen à enjeux élevés offre une preuve de compétence langagière de langue anglaise de la part des infirmiers et infirmières ayant reçu leur formation professionnelle à l’étranger et qui sont à la recherche d’un permis pour exercer leur profession au Canada, ainsi qu’une mesure de sécurité publique destinée aux régulateurs de la profession d’infirmiers et infirmières. Comprendre la qualité de la performance des évaluateurs/trices étant donné que les résultats servent à des décisions sur des enjeux importants demeure fondamental au maintien de la qualité de l’épreuve des compétences orales, car celle-ci implique le jugement et donc nécessite de fortes évidences de fiabilité (Koizumi, et coll. 2017). Cette étude a examiné la performance d’évaluateur/trice sur la composante des compétences orales du CELBAN en utilisant la mesure multifacette Rasch (MMFR). Spécifiquement, cette étude a identifié la fiabilité des évaluateurs/trices, la difficulté des critères, le parti pris de l’évaluation et l’usage de l’échelle de classification. Cette étude s’est basée sur un échantillon de 115 évaluateurs/trices dans huit centres d’évaluation au Canada et sur les résultats de 2.698 évaluations dans quatre versions parallèles. Les résultats démontrent une haute fiabilité relative entre évaluateurs/trices ainsi que sur le plan des intraévaluateurs/trices. De plus, les descripteurs des compétences orales de base des Compétences linguistiques canadiennes (CLC 6-9) ont fourni suffisamment d’information afin de permettre aux évaluateurs/trices de préciser le niveau de compétences du candidat / de la candidate. Il n’y a pas eu d’influence du site de l’examen ni de la version de celui-ci, ce qui offre de l’évidence de validité afin d’affirmer l’usage de cette épreuve pour des enjeux importants. La grammaire, une des huit critères, a été relevée comme étant celle la plus difficile sur l’échelle, et celle qui a mis en lumière le plus grand parti pris de la part des évaluateurs/trices. Cette étude accentue la valeur de l’analyse en effectuant la mesure multifacette Rasch dans des recherches de performance ayant des implications pour l’entraînement des évaluateurs/trices. Cette étude est parmi les premières se servant de la MMFR avec une évaluation à enjeux élevés à base des CLC dans le contexte canadien
    • …
    corecore